DSAEval: Evaluación de agentes de ciencia de datos en problemas reales Descubre DSAEval, benchmark con 641 problemas reales que evalúa agentes de IA. Resultados: Claude-Sonnet-4.5 lidera en rendimiento. 2026-06-12 · 3 min